Reuters Corpora 英文新闻数据

提供者:刘晓

地址:http://trec.nist.gov/data/reuters/reuters.html

简介

在2000年,路透社有限公司提供了大量路透社新闻报道,用于研究和开发自然语言处理,信息检索和机器学习系统。这个被称为“路透社语录1”或RCV1的语料库显着大于在文本分类社区中大量使用的旧版着名的路透社21578集合。 在2004年秋季,NIST接管了RCV1和任何未来路透社的发行。

Reuters Corpora (RCV1, RCV2, TRC2) 是一个英文新闻语料数据,包括大量的英文新闻及分类标注。

数据集内容

RCV1: 路透社语料库,第1卷,英语,1996-08-20至1997-08-19(发布日期2000-11-03,格式版本1,更正等级0) 这是通过网络下载分发,包含约810,000路透社,英语新闻故事。它需要约2.5 GB的存储未压缩的文件。

RCV2: Reuters Corpus,第2卷,多语种语料库,1996-08-20至1997-08-19(发布日期2005-05-31,格式版本1,更正等级0) 这是通过网络下载发布的,包含超过487,000条路线以13种语言(荷兰语,法语,德语,中文,日语,俄语,葡萄牙语,西班牙语,拉丁美洲西班牙语,意大利语,丹麦语,挪威语和瑞典语)的新闻报道。故事不是平行的,而是由当地记者用各种语言编写的。这些故事与RCV1同时出现,但有些语言并不涵盖整个时间段。

TRC2: TRC2 汤森路透文本研究集(TRC2) TRC2语料库包含1800,370个新闻报道,涵盖2008-01-01 00:00:03至2009-02-28 23:54:14或2,871,075,221字节的时间段,最初提供给2009年博客跟踪的参与者文本检索会议(TREC),以补充BLOGS08语料库(包含在格拉斯哥大学进行的大型博客搜索结果)。 TRC2通过网络下载进行分发。

相关论文

[1]. Lewis, D. D.; Yang, Y.; Rose, T.; and Li, F. RCV1: A New Benchmark Collection for Text Categorization Research. Journal of Machine Learning Research, 5:361-397, 2004.